前言
海量数据爆发时代,数据对企业越来越重要,而且越来越多的数据需要长久保存,刚性长期存储需求导致数据量非常大,长期存储成本高昂。如何低成本、有效、长久保存海量数据日渐成为大数据时代一个新的挑战。
上海东方明珠新媒体股份有限公司(股票代码:SH.600637,以下简称“东方明珠”)是上海广播电视台、上海文化广播影视集团有限公司(SMG)旗下统一的产业平台和资本平台。其拥有 IPTV、互联网电视、有线数字付费电视、手机移动电视、公共交通移动电视、楼宇电视等多种传播渠道,已成为中国最大的多渠道视频集成与分发平台。
东方明珠是XSKY老客户,16年就部署使用了XEDP统一数据平台,同一套存储系统向上层应用提供块、文件和对象三种数据服务,满足了东方明珠基于统一的存储平台,实现对数据的统一管理、调度和使用,同时大大降低了整体建设成本。对象存储帮助CDN产品线优化协议栈,从传统服务器裸盘到对象存储,让用户解放运维压力,以对象形式管理海量视频文件。文件存储解决了用户侧在媒资生产流程中,对于NFS/SMB协议挂载、在线剪编的需求,降低了用户在传统硬件高性能存储柜上的投入。块存储作为虚拟化、数据库的存储层进行服务,把数据冗余问题从应用层下沉到基础架构层。截止目前,东方明珠已经部署了多套XSKY XEDP统一数据平台,总容量近6PB。其中对象规划了两个集群,一个集群主要对接的是CMS内容管理平台和媒资历史带库,另一个集群对接CDN点播全量站点业务。随着各业务不断写入,CDN集群容量已快被写满,且各个平台对存储容量都有相应的使用需求:经过CMS生产流程后,产生的成片文件都是几个GB的大文件,而且原片都需要长久保存,长久保存就会导致本地集群容量需要不断增加,这样就会导致本地集群的投入成本不断增加。原来客户为了降低成本将部分数据直接写入阿里云OSS,降低对本地集群的投入成本。但现在客户需要将业务统一迁移至本地,而且要保证本地和云上的数据统一访问。
随着CDN点播全量站点业务的数据量不断暴涨,而且CDN内容数据不能删除,也需要长久保存,同时需要不断增加存储容量来保证该业务的快速增长。目前前存储集群的容量已不满足存储需求,存储容量已经快写满了,IDC的规划限制导致已经不能对该集群做扩容操作。
基于东方明珠不同业务平台对存储的需求,以及以上条件限制,XSKY 和客户一起规划出新的解决方案。
在原来存储集群 XEDP 中配置数据流动功能,根据不同的业务需求配置不同的数据流动策略。将CMS内容管理平台的原片数据根据数据流动策略按需分层到次级存储阿里云OSS,降低本地存储空间的压力,同时之前已经写入到阿里云OSS的数据,通过对象反向重建功能将OSS上的对象元数据重建到本地,保证本地数据和OSS数据统一访问;CDN点播全量站点业务则根据数据流动策略将超过1年的历史数据统一分层流动到阿里云OSS上,本地只保存1年内的数据。该方案很好的解决了本地存储空间不足问题,同时保障数据长久保存,统一数据访问入口不影响上层业务对所有数据的访问需求。
数据流动功能是XSKY自主研发的功能模块,可以实现不同业务类型按需分级存储及根据业务访问要求按需将数据冷热分层流动,助力企业数据按需自由流动。其中数据分层可以支持集群内存储类别间的数据流动以及本地集群到次级存储类别间的数据流动。通过设置生命周期数据流动的分层策略,将对象数据和元数据流动到指定的公有云存储中。对于已分层完成的数据,支持两种访问模式:从公有云存储读取数据后返回给应用,适用于对象完全分层后,需要偶尔访问读取,对性能没有特别要求的场景。数据需要先解冻还原到本地集群缓存,还原完成后,读取缓存数据返回给应用。适用于对象完全分层后,在某个时间段内,需要对它做高频访问,对性能有一定的要求。在该方案中采用代理访问模式,数据分层后,应用通过本地存储集群访问已经分层的对象,XSKY对象存储通过代理访问方式,直接从阿里云上读取数据并返回给应用。数据被分层到次级存储后,可以被前端应用无感知地利用XSKY代理访问模式读取,不影响用户使用习惯。
首先在本地存储集群XEDP的存储策略中添加次级存储,选择平台类型为公有云,存储平台选择阿里云OSS,和阿里云做了深度对接,可以无缝兼容;添加平台信息,将阿里云的访问入口、区域、AK/SK及对应的存储桶配置好即可完成次级存储阿里云的设置。- 存储平台为阿里云OSS,则访问模式只能选择Virtual-Host模式。
- Virtual-Host模式下,访问入口必须是域名
其次通过存储桶的生命周期管理,添加生命周期规则,设置需要分层的数据集合,开启数据分层功能,配置好数据分层规则。根据不同的平台数据配置不同的分层规则,CMS内容管理平台的原片数据根据文件前缀配置数据集,配置好分层流动的时间及分层到次级存储阿里云OSS;CDN 点播全量站点业务的数据需要按整桶数据集,写入1年后的数据都做数据分层流动,以及需要选择分层到的次级存储阿里云OSS。
以上2个步骤的配置即完成了CMS相应原片数据及CDN历史点播数据按需分层到阿里云OSS,操作极简。东方明珠和阿里云一直有良好合作关系,通过在东方明珠机房架设到阿里云的20Gb的专线网络,提供稳定可靠的网络带宽,支持CDN大量数据分层上阿里云。该专线上还承载其它业务网络传输任务,给数据分层预留了10Gb的带宽。由于多业务共享公网带宽,需要控制数据分层到阿里云使用的带宽不能超过1GB/s。CDN点播的切片平均大小为2.6MB,通过控制数据分层并发度,使得数据分层上阿里云稳定运行速度:3.125TB/小时,126万对象/小时,带宽在 910MB/s。在存储池管理中,可以看到数据池空间从最开始的占用92%,随着部分数据逐渐分层上阿里云,本地存储集群数据池空间释放,占用率逐步下降:
对于CMS平台之前已经写入到阿里云OSS上的数据需要反向重建到本地,统一数据访问入口,则需要单独配置重建对象数据功能。首先需要在存储策略中将阿里云OSS上的存储桶添加到次级存储类别中,建立本地和阿里云链接关系后,点击反向重建按钮,将阿里云OSS上存储桶中的元数据重建到本地存储桶中。本地和云端数据无缝流动,统一管理统一访问,业务无感知
节约成本,历史数据按需自动分层,提高本地存储空间利用率,降低整体投入成本
灵活可视化界面,操作简单,降低整体运维成本
海量存储,数据长久保存,赋能数据更大价值
全新混合云架构,无缝对接公有云,助力业务轻松上下云
代理模式访问分层数据,前端应用无感知,不影响用户使用习惯。
XSKY XEDP统一数据平台结合对象存储数据分层(CloudTier)功能的整体方案,让底层的数据流动对应用完全透明,应用无需关注数据的存放位置,满足东方明珠对“连续、通达、感知”的要求,数据根据最优策略在本地数据中心和公有云之间自动流动,助力东方明珠业务轻松上下云,达到存储和数据的融合。